ЗК 


УДК 004.272.43 


И.А. Каляев', И.И. Левин', Е.А. Семерников” 

НИИ многопроцессорных вычислительных систем имени академика А.В. Каляева 
Южного федерального университета, г. Таганрог, Россия 

Южный научный центр РАН, г. Ростов-на-Дону, Россия 


Архитектура семейства реконфигурируемых 
вычислительных систем на основе ПЛИС 


В статье приводится описание архитектуры и принципов построения семейства реконфигурируемых 
вычислительных систем с динамически перестраиваемой архитектурой на основе ПЛИС 
производительностью до 6 Тфлопс, создаваемого в рамках Федеральной целевой программы 
«Исследования и разработки по приоритетным направлениям развития научно-технологического 
комплекса России на 2007 — 2012 годы». В качестве основного вычислительного элемента в них 
используются не универсальные микропроцессоры, а программируемые логические интегральные 
схемы сверхбольшой интеграции. Все представители семейства предназначены для решения 
вычислительно трудоемких задач различных предметных областей, обеспечивают реальную 
производительность не ниже 50 % от пиковой производительности на широком классе задач и имеют 
практически линейный рост производительности при наращивании аппаратного ресурса. 


Введение 


В настоящее время наибольшее распространение в мире получили суперЭвВМ 
кластерного типа. Это связано, прежде всего, с удобством программирования, а также с 
тем, что они строятся из комплектующих на основе универсальных микропроцессоров, 
обладающих высокой технологичностью и относительно низкой стоимостью. В то же 
время пользователи отмечают принципиальные недостатки кластерных суперЭВМ, 
которые заключаются в существенном снижении их производительности при 
решении многих практических задач. Так, например, высокую реальную производи- 
тельность кластерные суперЭВМ демонстрируют, в основном, только при решении 
класса слабосвязанных задач, не требующих большого числа информационных 
обменов, в то время как при решении задач других классов их реальная произ- 
водительность существенно снижается и не превышает 5 — 10 % от декларируемой 
пиковой производительности системы. Это является следствием неадекватности 
конкретной архитектуры суперкомпьютера информационной структуре решаемой 
задачи [1-3]. 

Недостатки кластерных систем, связанные с их неизменной «жесткой» архитекту- 
рой, позволяет преодолеть концепция создания реконфигурируемых вычислительных 
систем (РВС) с «гибкой», динамически перестраиваемой (программируемой) архитекту- 
рой [3-7]. Концепция создания РВС разработана в Научно-исследовательском институте 
многопроцессорных вычислительных систем имени академика А.В. Каляева Южного 
федерального университета (НИИ МВС ЮФУ) и развивается уже более 20 лет. 
В отличие от многопроцессорных вычислительных систем с «жесткой» архитектурой 
архитектура РВС может динамически изменяться в процессе функционирования. 
В результате у пользователя появляется возможность адаптации архитектуры вычисли- 
тельной системы под структуру решаемой задачи. Иными словами, пользователь 
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может, оставаясь в рамках базовой архитектуры системы, создавать проблемно- 
ориентированные вычислители, структура которых соответствует структуре решае- 
мой задачи. Проведенные исследования и многочисленные практические разработки, 
выполненные в НИИ МВС ЮФУ, показали [4-9], что реализация данной концепции 
обеспечивает высокую реальную производительность РВС, близкую к пиковой, на 
широком классе задач, в том числе при решении «сильносвязанных» задач. 


Принципы организации вычислений в РВС 


В отличие от традиционных методов организации параллельных вычислений 
РВС ориентируются на абсолютно параллельную форму алгоритма задачи -— ее ин- 
формационный граф. Под информационным графом [2] понимается граф, вершины 
которого соответствуют арифметико-логическим операциям над операндами или 
ячейками (каналами) памяти, в которых расположены информационные массивы. 
Дуги информационного графа соответствуют информационной зависимости между 
вершинами. Если существует направленная дуга, соединяющая вершину а с верши- 
ной Б, то это означает, что результат операции, соответствующий вершине 
информационного графа а, является входным операндом операции, соответствующей 
вершине Р. Вершины, соответствующие каналам памяти, в которых располагается 
входная и выходная информация, являются входными и выходными вершинами 
информационного графа. Информационные графы больших и сложных задач могут 
содержать миллионы вершин. 

Идея концепции построения РВС заключается в аппаратной реализации всех 
операций, предписанных вершинами информационного графа задачи, всех каналов 
передачи данных между вершинами, соответствующих дугам графа, и всех информа- 
ционных каналов, соответствующих входным и выходным вершинам. В этом случае 
задача, определенная информационным графом, будет выполнена максимально быстро, 
поскольку обеспечивается максимально возможное распараллеливание вычислений. 
Такое решение задачи принято называть структурным [4], [5]. 

Очевидно, что информационные графы больших задач не могут быть целиком 
отображены в имеющемся аппаратном ресурсе РВС. В этом случае информационный 
граф большой задачи сегментируется на фрагменты — непересекающиеся базовые 
подграфы, физически реализуемые в аппаратуре РВС, а решение большой задачи выпол- 
няется структурно-процедурным способом, при котором на аппаратный ресурс РВС 
поочередно отображаются базовые подграфы информационного графа, и вычисле- 
ния в соответствии с отображенным подграфом выполняются структурно, а смена 
подграфов выполняется процедурно [4-6], [9]. 

В простейшем случае структурно-процедурный вычислительный процесс в РВС 
организуется следующим образом. В аппаратном ресурсе РВС реализуется один из 
базовых подграфов сегментированного информационного графа задачи и на его входы 
из блоков памяти подаются входные данные этого фрагмента. Процесс вычисления 
реализуется вычислительной структурой, соответствующей данному подграфу, и на 
выходе формируется результат вычислений, который запоминается в соответствующих 
блоках памяти. Далее в аппаратном ресурсе РВС реализуется следующий базовый 
подграф сегментированного информационного графа задачи, и процесс повторяется. 
Этот процесс показан на рис. 1. 

При реализации структурно-процедурного метода информационный граф 
задачи представляется в виде кортежа изоморфных базовых подграфов, которые 
являются информационно-независимыми или непосредственно зависящими друг от 
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друга. Кортеж информационных подграфов преобразуется в специальную вычисли- 
тельную конструкцию — кадр. Можно сказать, что кадру соответствует подграф 
задачи, реализованный аппаратно, через который следует поток операндов. При этом 
каждая группа операндов (результатов) соответствует входным (выходным) вершинам 
определенного подграфа кортежа. Смена кадров в РВС осуществляется процедурно 
по единой для всей системы программе. 


Информационный Отружтуюя б5Ро 
граф оч 
= = 


ам 
057 


Подграфы 
после 
сегментации 


9) 


Отображение структуры 
кадров в аппаратуре РВС 


Рисунок 1 — Процесс решения задачи в РВС 


Механизм последовательного обхода подграфов информационного графа задачи 
кадрами принято называть структурно-процедурной организацией вычислений. 

РВС со структурно-процедурной организацией вычислений является гибридом 
фон-неймановской архитектуры и архитектуры потока данных. Такая организация 
вычислений обеспечивает детерминизм выполнения программы, что в общем случае 
недостижимо в многопроцессорных системах, построенных по традиционной мульти- 
процедурной архитектуре (кластерные МВС). При этом обеспечивается также и 
высокая эффективность параллельных вычислений на широком классе задач. 


Архитектура РВС 


Основными вычислительными блоками в РВС являются макропроцессоры 
(МАП). Макропроцессор позволяет реализовывать крупные операции, которые пред- 
писаны вершинами информационного графа. Макропроцессор представляет собой 
некоторый набор элементарных процессоров (ЭП), объединяемых в единый программно- 
неделимый вычислительный ресурс с помощью локального пространственного коммута- 
тора (К\) (рис. 2а). Внутренний коммутатор макропроцессора, как правило, соединяет по 
полному графу все информационные входы и выходы элементарных процессоров, 
внешние информационные входы Х, внешние информационные выходы 7, макропроцес- 
сора. Настройка макропроцессора на крупную функционально законченную операцию 
(макрооперацию) производится с помощью блока макроопераций (БМ). В каждый 
момент времени макропроцессор может реализовывать только одну макрооперацию. 
Незадействованные в макрооперации элементарные процессоры будут простаивать. 

Следует отметить, что в отличие от стандартного микропроцессора элемен- 
тарный процессор макропроцессора не управляет процессом обработки информации, 
а лишь реализует соответствующую ему операцию над операндами, поступающими 
на его входы. 
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Для реализации того или иного информационного графа решаемой задачи макро- 
процессоры должны иметь возможности соединения в вычислительные параллельно- 
конвейерные структуры. С этой целью в состав РВС включен коммутатор второго 
уровня или системный коммутатор, обеспечивающий различные варианты соедине- 
ния макропроцессоров друг с другом. В состав РВС входит также распределенная 
память, обеспечивающая возможности параллельной выдачи массивов входных 
данных на входы макропроцессоров и записи результатов вычислений с их выходов. 
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Рисунок 2 — Структурная схема макропроцессора а и обобщенная схема РВС б 


Обобщенная схема РВС приведена на рис. 26. В ее состав входят множество 
макропроцессоров, состоящих из элементарных процессоров, соединяемых между собой 
с помощью локального коммутатора; множество каналов распределенной памяти 
(РП), в каждый из которых входит контроллер распределенной памяти (КРП), а 
также системный коммутатор К>›, предназначенный как для соединения макро- 
процессоров друг с другом в вычислительные структуры, так и для их параллельного 
доступа к каналам распределенной памяти. Множество входных и выходных дуг 
информационного графа реализуется системным коммутатором К>, обеспечивающим 
подключение каналов распределенной памяти к тем или иным входам и выходам 
макропроцессоров. При этом массивы входных данных отображаются в соответствую- 
щие каналы распределенной памяти, процедура обращения к которым реализуется с 
помощью КРИ. 

Особенность архитектуры РВС заключается в том, что в процессе конструиро- 
вания она не формируется окончательно, а остается в определенном смысле 
незавершенной и открытой. Окончательное программирование архитектуры РВС 
включает создание функциональных узлов (элементарных процессоров) для выполне- 
ния вычислений, настройку прямых информационных каналов в коммутаторах Ку и 
К>› между элементарными процессорами, настройку блоков распределенной памяти 
на реализацию процедур чтения и записи информационных массивов. Аппаратно- 
программные средства РВС позволяют синтезировать произвольные соединения 
между компонентами системы, создавая необходимые вычислительные структуры. 
Совокупность вычислительных структур, созданных в рамках базовой архитектуры 
РВС, образуют виртуальный проблемно-ориентированный вычислитель, структура 
которого адекватна информационному графу (подграфу) решаемой задачи. 
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Реализация и широкое внедрение в практику концепции высокопроизводитель- 
ных РВС требуют соответствующей элементной базы, удовлетворяющей следующим 
основным критериям: 

— высокой степени интеграции, позволяющей реализовать крупные фрагменты 
вычислений; 

— сравнительно низкой стоимости при мелкосерийном производстве вычисли- 
тельных систем; 

— возможности аппаратной реализации специализированных вычислительных структур; 
— возможности реализации различных схем распараллеливания вычислений; 

— возможности реконфигурации сформированных вычислительных структур при 
переходе от одних алгоритмов и схем распараллеливания к другим; 

— поддержки разработки схемотехнических решений системами автоматизиро- 
ванного проектирования. 

Всем этим требованиям отвечают появившиеся в конце ХХ и начале ХХ[ века 
программируемые логические интегральные схемы (ПЛИС) со сверхвысокой сте- 
пенью интеграции (в английской аббревиатуре ЕРСА — ЕЦеа Ртозтатта Ме Саёе$ 
Аггау). В ПЛИС изначально заложены возможности реконфигурирования их внут- 
ренней архитектуры, и поэтому они наилучшим образом соответствуют концепции 
реконфигурируемых вычислительных систем. 

Применение ПЛИС большой степени интеграции дало возможность перейти к 
созданию в РВС больших решающих полей, содержащих множество однотипных 
микросхем. При этом функциональные узлы и вычислительные блоки, реализуемые 
в решающем поле, могут не привязываться к конкретным микросхемам, поскольку в 
любом месте решающего поля могут быть реализованы любые функциональные 
устройства, которые необходимы в данном месте. В этом смысле решающее поле 
является как бы аналогом сверхбольшой ПЛИС, объединяющим ресурсы всех мик- 
росхем. 

Однако построение больших решающих полей на ПЛИС требует преодоления 
некоторых проблем. Одна из них -— это негативный эффект границ, возникающих на 
стыках отдельных ПЛИС при их объединении в решающее поле. Эффекты границ 
сказываются при реализации больших фрагментов вычислительных структур, кото- 
рые не могут быть реализованы в пределах отдельной микросхемы, а требуют 
ресурса нескольких ПЛИС. Вторая проблема — это конструктивно-технологические 
ограничения, которые заключаются в том, что невозможно разместить неограничен- 
ное количество ПЛИС на печатной плате приемлемого размера. Эта проблема 
решается путем модульного построения аппаратных средств РВС и модульной 
наращиваемости на основе унифицированных базовых модулей. Базовые модули не 
только позволяют путем комплексирования создавать РВС необходимой производитель- 
ности, но и сами по себе являются реконфигурируемой вычислительной системой, 
способной совместно с персональным компьютером (в качестве интеллектуального 
терминала) решать пользовательские задачи. 

Введение модульного принципа построения аппаратных средств обостряет пер- 
вую проблему, порождая еще один тип границ — межмодульный. Как будет показано 
ниже, суть решения проблемы границ заключается в создании единого типа интерфейса 
как между ПЛИС в пределах базового модуля, так и между ПЛИС разных базовых 
модулей. 
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Архитектурные особенности базового модуля и модульно наращиваемой РВС 
на его основе показаны на рис. За и 36 соответственно. 


Рисунок 3 — Укрупненная структура базового модуля а и обобщенная структура 
модульно-наращиваемой РВС б 


В состав базового модуля входит некоторое множество макропроцессоров (МАП) 
и блоков памяти (М), объединенных с помощью пространственной коммутационной 
системы К>. Каждый макропроцессор, в свою очередь, содержит т элементарных 
процессоров (ЭП), объединенных коммутатором К1. Таким образом, в базовом модуле, 
показанном на рис. За, имеет место двухуровневая коммутационная система. Первый 
уровень устанавливает связи между элементарными процессорами внутри макропро- 
цессора, а второй уровень — связи между макропроцессорами внутри базового 
модуля. Наращивание производительности РВС достигается путем объединения 
нескольких базовых модулей в единый вычислительный ресурс. Пример объедине- 
ния базовых модулей с использованием для этого возможностей коммутатора К› 
показан на рис. 36. 

На рис. 4 показана типовая структура базового модуля на основе ПЛИС, который 
несет в себе все характерные признаки завершенной РВС [4-6], [8]. 
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Рисунок 4 — Структура базового модуля реконфигурируемой системы 
на основе ПЛИС 
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Основные вычислительные возможности базового модуля сосредоточены в ре- 
шающем поле, которое содержит некоторое множество ПЛИС большой степени 
интеграции. В решающем поле создаются вычислительные и коммутационные 
структуры: макропроцессоры МАП) —- МАП,, каждый из которых, в свою очередь, 
содержит несколько элементарных процессоров ЭП/ — ЭП», объединенных коммута- 
торами К1, внутримодульный коммутатор К>, контроллеры распределенной памяти 
для управления блоками распределенной памяти. При этом сами блоки распределенной 
памяти выполняются на типовых микросхемах ОЗУ ЗКАМ или ЗОКАМ необходимого 
объема и быстродействия. Контроллер базового модуля (КБМ) выполняет функции 
управления и контроля всех систем базового модуля. На базовом модуле располагаются 
также и вспомогательные подсистемы: синхронизации, электропитания и охлаждения. 

ПЛИС решающего поля располагаются в узлах двумерной решетки и соединяются 
между собой ортогональной системой связей по близкодействию. Такая система связей 
позволяет существенно упростить печатную плату и улучшить ее частотные характе- 
ристики, поскольку связи между соседними микросхемами не превышают единицы 
сантиметров. Данные между дальними микросхемами передаются по транзитным кана- 
лам через промежуточные микросхемы, используя систему ортогональных связей. 

Центральное место в организации вычислительного процесса отводится конт- 
роллерам распределенной памяти. Контроллеры памяти работают с фрагментами 
параллельной программы, которые загружены в их блоки памяти. Исполняя парал- 
лельную программу, контроллеры распределенной памяти участвуют в настройке 
элементарных процессоров на выполнение необходимых операций и создают с 
помощью коммутаторов К! и К> необходимые каналы связи между ними, тем самым 
реализуя в пределах базового модуля мультиконвейерную вычислительную струк- 
туру, соответствующую базовому подграфу задачи. 

Одна часть контроллеров распределенной памяти, исполняя фрагменты парал- 
лельной программы, организует и синхронизирует потоки данных, подаваемые в 
вычислительные структуры. Другая часть контроллеров выполняет функции приема 
результатов вычислений. Базовый модуль с точки зрения организации потоков данных 
через аппаратно реализованный в нем базовый подграф показан на рис. 5. 
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Рисунок 5 — Организации потоков данных через аппаратно реализованный базовый 
подграф 


Для создания эффективных вычислительных структур в пределах базового 
модуля необходимо оптимальное соотношение количества ПЛИС, количества блоков 
распределенной памяти и их объема. Для различных задач, решаемых на РВС, это 
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соотношение различно. В то же время для структурной реализации вычислений не 
требуется запоминание множества промежуточных данных, так как они передаются 
для дальнейшей обработки в последующие ступени конвейерного вычислителя без 
промежуточного запоминания. Это снижает требования к общему объему памяти на 
базовом модуле. Для структурной реализации вычислений более критичным явля- 
ется количество блоков распределенной памяти, а не объем каждого блока или 
общий объем памяти. Помимо распределенной памяти, реализованной на типовых 
микросхемах ОЗУ, при создании вычислительных структур широко используется 
внутрикристальная память ПЛИС. 

Поскольку в решающем поле реализуются вычислительные структуры, кото- 
рые располагаются в ресурсах нескольких или даже всех микросхем, то необходимо 
стремиться к тому, чтобы максимально снизить негативный эффект границ между 
кристаллами ПЛИС. Снижение межкристального эффекта границ достигается двумя 
путями. Первый из них предполагает использование ПЛИС максимальной интеграции, 
которые позволяют размещать все более крупные фрагменты функциональных узлов. 
Второй путь заключается в создании регулярных и однородных связей между всеми 
ПЛИС базового модуля и всей РВС в целом. 

С этой целью связи между ПЛИС решающего поля базового модуля целесооб- 
разно выполнять на основе стандарта ГУО$З (Го\у УоЦазе Оегепна! $1епаПпе — 
дифференциальные сигналы низкого напряжения). Преимуществами стандарта ГУОЗ 
являются: низкая потребляемая мощность выходных каскадов, низкий уровень 
создаваемых электромагнитных излучений, невосприимчивость к синфазным электро- 
магнитным помехам и наличие в микросхемах современных ПЛИС аппаратной 
поддержки для организации высокоскоростных передач данных на основе стандарта 
ГУО$. Темп передачи данных по каждой двухпроводной линии в зависимости от 
реализации может составлять несколько гигабит в секунду. 

Поскольку при реализации вычислительных структур больших базовых подгра- 
фов может не хватить ресурсов одного базового модуля, то возникает необходимость 
реализации таких структур в пределах двух и более базовых модулей. При этом важно 
сохранить темп передачи данных из микросхем решающего поля одного базового 
модуля непосредственно в ПЛИС другого базового модуля. Для сохранения темпа 
передачи в межмодульных обменах целесообразно также использовать стандарт ГУО$. 
Единый тип интерфейса между ПЛИС как в пределах одного базового модуля, так и 
между различными базовыми модулями обеспечивает одинаковые скорости обмена 
и снижает эффект границ в пределах общего схемотехнического ресурса РВС. 

Принцип модульной наращиваемости позволяет увеличить производительность 
РВС при увеличении количества базовых модулей. При этом обеспечивается воз- 
можность организации ресурсонезависимого и отказоустойчивого программирования, 
параметризуемого относительно вычислительного ресурса (количества базовых модулей), 
выделяемого для решения задачи. Задача может быть решена на любой конфигурации 
вычислительной структуры. Выход из строя одного или нескольких базовых модулей не 
влечет за собой прекращение решения задачи и необходимость ее полной перетранс- 
ляции, а лишь несколько замедляет процесс решения [4-6]. 

На основе описанной выше концепции в НИИ МВС ЮФУ за последние 5 — 6 лет 
был создан ряд РВС различной производительности и назначения, из которых две 
системы в настоящее время выпускаются серийно. Показатели «компактности» и 
«эффективности» созданных систем составили 5 — 6 Гфлопс/дм” и менее 18000 — 
20000 руб/Гфлопс. Для задач символьной обработки эти же показатели составили 
115х107 операций/дм* и 2000 руб/млрд оп. 
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Состав семейства РВС 


В настоящее время по заданию Федерального агентства по науке и инновациям 
ведется выполнение Государственного контракта № 02.524.12.4002 по теме «Создание 
семейства высокопроизводительных многопроцессорных вычислительных систем с 
динамически перестраиваемой архитектурой на основе реконфигурируемой элементной 
базы и их математического обеспечения для решения вычислительно трудоемких 
задач» в рамках Федеральной целевой программы «Исследования и разработки по 
приоритетным направлениям развития научно-технологического комплекса России 
на 2007 — 2012 годы». 

Целью разработки является создание на единых архитектурных принципах 
семейства программно-совместимых РВС производительностью от 0,025 Тфлопс до 
6 Тфлопс. Создаваемое семейство РВС включает: 

— РВС-5 — высокопроизводительную систему производительностью 6 Тфлопс; 

— РВС-1Р иРВС-1К - системы производительностью более 1 Тфлопс; 

— РВС-0.2-РС — рабочую станцию производительностью 300 ГФлопс; 

— РУПК-50 и РУПК-25 — ускорители персональных компьютеров производи- 
тельностью 50 и 25 ГФлопс. 

Старшие представители семейства создаются на принципах модульной наращи- 
ваемости на основе вычислительного блока РВС-0.2-ВБ и базового модуля 16\У5-75 
и обладают почти линейным ростом реальной производительности в зависимости от 
увеличения аппаратного ресурса [4-6], [9]. 

Внешний вид вычислительного блока и базового модуля 16\5-75 производи- 
тельностью более 300 Гфлопс и 75 Гфлопс соответственно, из которых строятся 
старшие представители семейства РВС, показаны на рис. 6. 


Рисунок 6 — Вычислительный блок РВС-0.2-ВБ - а и базовый модуль 16\5-75 — б 


Для создания семейства РВС, системного и прикладного программного обес- 
печения его представителей, информационной и программной инфраструктуры для 
обучения и поддержки потенциальных пользователей семейства образован консор- 
циум из ряда научных и научно-производственных организаций, в который вошли: 
НИИ МВС ЮФУ (г. Таганрог) — головной исполнитель проектаа ФГУП «НИИ 
«Квант» (г. Москва); «Южный научный центр РАН» (г. Ростов-на-Дону); «Специаль- 
ная астрофизическая обсерватория РАН» (пос. Нижний Архыз); НИЦ «СуперЭВМ и 
нейрокомпьютеров» (г. Таганрог); НИВЦ МГУ (г. Москва). 

Реальная производительность всех представителей семейства РВС планируется не 
ниже 50 % от указанной пиковой производительности на широком классе вычислительных 
задач. При этом они будут обладать существенно меньшими габаритами, энергопотреб- 
лением и стоимостью по сравнению с суперЭ8ВМ кластерного типа аналогичной 
производительности. 
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Системное программное обеспечение 


Программирование РВС отличается от программирования МВС традиционной 
архитектуры, и его можно условно разделить на две составляющие: программиро- 
вание структурное, которое создает необходимые вычислительные структуры в поле 
логических ячеек ПЛИС, и программирование процедурное — программирование в 
традиционном смысле, заключающееся в организации вычислительного процесса в 
РВС. При этом программирование вычислительных структур вызывает у пользователей 
наибольшие трудности [4], [5], [10]. Это связано с тем, что традиционно пользователи 
привыкли программировать только организацию вычислительного процесса, опираясь 
на неизменяемую аппаратную поддержку средств вычислительной техники, в то время 
как для программирования вычислительных структур РВС требуется совершенно дру- 
гая квалификация, а именно — квалификация схемотехника. 

При программировании пользовательской задачи структура РВС приобретает 
черты специализированной многопроцессорной ЭВМ, которая оптимально соответст- 
вует структуре решаемой задачи из предметной области. Это обеспечивает высокую 
реальную производительность системы, близкую к пиковой производительности на 
широком классе задач, и позволяет достичь практически линейного роста производи- 
тельности при наращивании аппаратного ресурса. Эффективность вычислительного 
процесса при реконфигурации архитектуры РВС на низком (схемотехническом) 
уровне может быть повышена от 10 до 100 раз по сравнению с вычислительными 
системами, архитектура которых не может быть изменена. Это делает, с одной 
стороны, чрезвычайно привлекательными реконфигурируемые на низком уровне 
системы, а с другой стороны, их программирование становится по сложности сопоста- 
вимым с созданием новой вычислительной системы. Поэтому требуются новые методы 
и средства создания прикладных параллельных программ для решения прикладных 
задач на РВС. 

Создаваемое в рамках проекта системное и прикладное программное обеспечение 
обеспечивает потенциальным пользователям удобство программирования сложных 
практических задач на РВС и включает: программный комплекс средств разработки 
прикладных программ, средства администрирования вычислительных ресурсов РВС 
и служебные программы и драйверы. 

Программный комплекс средств разработки прикладных программ для РВС, 
создаваемый в рамках проекта, предоставляет пользователю возможности, которые 
позволяют создавать программы без привлечения специальных знаний в области 
схемотехники ПЛИС и по сложности приближены к обычному программированию 
для многопроцессорных ЭВМ. 


Заключение 


Описанные в статье архитектура и принципы построения высокопроизводи- 
тельных систем на основе ПЛИС и создаваемое на этих принципах семейство РВС 
являются принципиально новым направлением развития высокопроизводительной 
вычислительной техники. В качестве основного вычислительного элемента в РВС 
используются не универсальные микропроцессоры, а программируемые логические 
интегральные схемы. Это дает возможность пользователям создавать в базовой 
архитектуре РВС виртуальные специализированные вычислители, структура которых 
адекватна структуре решаемой задачи, что, в свою очередь, обеспечивает высокую 
эффективность вычислений и близкий к линейному рост производительности при 
наращивании вычислительного ресурса. 
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Проблема снижения производительности традиционных МВС на сильносвязан- 
ных задачах может быть разрешена только путем предоставления пользователю 
больших возможностей в части архитектурного программирования аппаратного 
параллелизма вычислительной системы. В этом контексте РВС, построенные на 
архитектурных принципах, описанных в статье, обладают рядом преимуществ перед 
многопроцессорными системами традиционной организации, которые основаны на 
использовании микропроцессоров в качестве основного вычислительного элемента. 
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ТА. Каляев, Ш. Левт, Е.А. Семерников 

Арх!ектура родини обчислювальних систем, що реконфигуруються, на основ! ПЛТС 

У статт! наводиться опис архмтектури 1 принцишв побудови родини обчислювальних систем, що 
реконфалгуруються, з динам1чною перебудовуваною арх!тектурою на основ! ПЛС продуктивн1стю до 
6 Тфлопс, створювано! у рамках Федерально! щльово! програми «Исследования и разработки по 
приоритетным направлениям развития научно-технологического комплекса России на 2007 — 2012 годы». 
У якост! основного обчислювального елемента у них використовуються не унверсальн! мкропроцесори, а 
програмован! логчн! 1нтегральн! схеми надвелико! 1нтеграци. Ве! представники родини призначен! 
для розв’язання обчислювально працем!стких задач р1зноман!тних предметних галузей, забезпечують 
реальну продуктивнисть не менш 50 % вд шково! продуктивност! на широкому клас! задач 1 мають 
практично л1нйне зростання продуктивност! при нарощуванн! апаратного ресурсу. 


Т.А. Куатеу, Ш. Геут, Уе.А. Зетегтйкоу 

ш Фе агисе 1$ слуеп Аезсирноп оё агсЬИесаге ап4 4езеп рипср[ез оЁ шйу о# гесопйхига е сотршег 
зузет$ у 4упаписаПу гесопЯигае агсЬцесеаге оп фе Базе оЁ ЕРСА ап ре{оппапсе чр ю 6 ТЕюрз. 
Те ЁатПу 15 дезлопе4 ууибт Фе йатеууогК о Еедега] ргоэтат Бидзенпе “КезеагсВ ап 4еуе!ортеп оп 
риогиу ЧиесНоп$ оР Визап зсепЯЙс ап4 {есбпо|оз1са| сотр ех 4еуеортепе ш 2007-2012”. Аз а Баз1с 
сотршаНопа! еетеп ш Шфезе зузетз аге изеа УТ.5Т ЕРОА$ шуеа4 оЁ эепега]-ригрозе пусгоргосеззог. 
АП гергезетануе$ оЁ Фе атПу аге сопз14еге4 фо Бе изе4 Гог зоуше 1азК$ о 12 сотршаНопа| сотр]ехИу 
Кот уапоч$ рго ет агеаз. Сотрщег зузетаз ргоу14е геа| регоптпапсе абоуе 50 % Нот реаК регогтапсе 
оп уе с1а5$ оЁ‘а5Кз ап Вауе ргасйсаПу Ппеаг реогтапсе этом 4игите Ваг4ууаге гезоигсе шсгеазше. 
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